% 统计力学视角与协调机制
% 层级合作论文第3-4节

\section{统计力学视角}
该系统允许通过一个捕捉多尺度交互的层级哈密顿量进行统计物理解释。对于二元状态$s_i \in \{-1,+1\}$，能量函数为
\begin{equation}
    \mathcal{H}(s) = - \sum_{\ell} \sum_{\langle i,j \rangle_\ell} J_\ell(r_i,r_j) s_i s_j - \sum_{\ell<\ell'} \sum_{(i,j) \in C_{\ell,\ell'}} K_{\ell,\ell'} s_i s_j - \sum_{i} h_i(t) s_i,
\end{equation}
其中$J_\ell$是层内耦合（依赖于规则），$K_{\ell,\ell'}$是层间耦合，$h_i(t)$是外部场。

{\color{red}\textbf{[物理图像]:} 这个哈密顿量就像一个``多层磁性材料''——第一项描述同一层内的智能体之间的相互作用（就像晶格中相邻自旋的铁磁耦合），第二项描述不同层级之间的耦合（想象上下层之间有``磁力线''连接），第三项是外部驱动场（类似外加磁场）。负号表示能量最低时系统趋向对齐。}

\subsection{相变与临界行为}
系统表现出二阶相变，其特征由序参数$m_\ell = \langle s_i \rangle_\ell$刻画，测量每一层内的协调程度。临界温度$T_c$由谱条件$\lambda_{\max}(M) = 1$确定，其中
\begin{equation}
    M_{\ell\ell'} = \beta J_{\text{eff}}^{(\ell)} \delta_{\ell\ell'} + \beta K_{\text{eff}}^{(\ell,\ell')} (1-\delta_{\ell\ell'}).
\end{equation}

{\color{red}\textbf{[关键理解]:} 临界点由最大本征值$\lambda_{\max}(M)=1$确定——这是所有平均场相变的标志！矩阵$M$编码了有效耦合强度（乘以逆温度$\beta=1/(k_BT)$）。当最大本征值超过1，系统自发产生有序（铁磁相）；低于1则保持无序（顺磁相）。这就像``反馈放大''——当耦合足够强，微小涨落被无限放大。}

在临界性附近，磁化强度按$\langle|m_\ell|\rangle \sim (T_c - T)^{\beta_\ell}$标度，磁化率按$\chi_\ell \sim |T - T_c|^{-\gamma_\ell}$标度，指数$(\beta_\ell, \gamma_\ell)$刻画普适类。

{\color{red}\textbf{[标度律的威力]:} 这些幂律标度是相变理论最深刻的预言！无论具体微观细节如何，只要属于同一``普适类''，临界指数完全相同。就像所有铁磁体（无论是铁、镍还是钴）在临界点都表现出相同的$\beta\approx 0.33$。这是``宏观涌现超越微观细节''的完美例证。}

\begin{table}[ht]
    \centering
    \caption{层级合作普适类}
    \label{tab:universality}
    \small
    \begin{tabular}{llll}
        \toprule
        类别 & 耦合体制 & 临界指数 & 协调模式 \\
        \midrule
        I & 独立（$\kappa \to 0$） & $\beta \approx 0.33$, $\gamma \approx 1.24$ & 层级自治 \\
        II & 弱层间（$\kappa \ll u$） & 微扰修正 & 矩阵式组织 \\
        III & 强层间（$\kappa \sim u$） & $\beta = 0.5$, $\gamma = 1.0$ & 集中控制 \\
        IV & 层级混合 & $\beta = \beta_0 + c_1/L$ & 多尺度耦合 \\
        \bottomrule
    \end{tabular}
\end{table}

{\color{red}\textbf{[四类普适类的组织学解释]:} 第I类对应``部门墙''严重的组织——各层各干各的，像独立小公司；第II类是``松散矩阵''——有跨层沟通但不强；第III类是``军队式指挥链''——层间耦合极强，上级命令直达基层；第IV类是最有趣的``真正层级结构''——既有层内自组织，又有层间协调，呈现出新的临界行为。}

\textbf{类别I（独立层）：}当层间耦合$K_{\ell,\ell'} \to 0$时，每一层独立发生相变，具有三维伊辛指数（$\beta \approx 0.326$, $\gamma \approx 1.237$, $\nu \approx 0.630$），适用于协调最小的孤立团队。

{\color{red}\textbf{[为什么是3D伊辛？]:} 因为我们假设每一层在三维空间中嵌入（智能体有空间位置），且状态是二元的（$s_i=\pm 1$，类似自旋向上/向下）。3D伊辛模型是最经典的铁磁相变模型，其临界指数已被精确计算和实验验证。这里直接继承这些普适指数！}

\textbf{类别II（弱耦合）：}微扰体制$0 < K_{\ell,\ell'} \ll J_\ell$展现出对单层行为的修正。跨层关联按$\langle \phi_\ell(x) \phi_{\ell'}(x') \rangle \sim |x - x'|^{-2(d-2+\eta)} |{\ell} - {\ell'}|^{-\Delta_{\ell\ell'}}$衰减，具有反常维度$\Delta_{\ell\ell'}$。

{\color{red}\textbf{[空间与层级的双重衰减]:} 这个关联函数同时在空间（$|x-x'|$）和层级（$|\ell-\ell'|$）两个维度衰减！物理图像：离得越远（空间）的智能体关联越弱——这是正常的；但层级距离越远（例如CEO和一线员工）的关联也越弱——这是层级结构的新特征。$\Delta_{\ell\ell'}$刻画了``层级衰减速度''。}

\textbf{类别III（强耦合）：}当$K_{\ell,\ell'} \sim J_\ell$时，有效维度增加到$d_{\text{eff}} = d + (L-1)$。对于$d_{\text{eff}} > 4$（上临界维度），出现平均场指数（$\beta = 0.5$, $\gamma = 1.0$, $\nu = 0.5$），这是具有强自上而下控制的紧密耦合层级的特征。

{\color{red}\textbf{[维度提升的奇妙后果]:} 当层间耦合很强时，系统``感觉''自己处于更高维度！例如3层系统在3D空间中，有效维度变成$3+(3-1)=5$维。而在4维以上，涨落被抑制，平均场理论变得精确——这就是为什么出现简单的平均场指数$\beta=0.5$（而非3D的0.33）。强耦合``冻结''了涨落！}

\textbf{类别IV（层级）：}在$K_{\ell,\ell'} = J_\ell \sqrt{L}$处的新不动点产生对数修正：$\beta_H = \beta_0 + c_1/L + O(L^{-2})$和$\nu_H = \nu_0(1 + c_2 \ln L)$，普适常数$\{c_1, c_2\}$刻画层级结构。

{\color{red}\textbf{[对数修正——边缘性的标志]:} 这是理论中最微妙的部分！当耦合恰好按$\sqrt{L}$标度时，系统处于``边缘临界''——既不完全独立也不完全强耦合。对数修正$\ln L$是上临界维度的标志（类似4D伊辛模型）。这暗示真实层级组织可能自然处于这种``临界边缘''——既保持层内自主性，又实现跨层协调。}

\subsection{早期预警指标}

相变附近的临界慢化通过四个互补信号表现出来，使得能够在协调崩溃之前进行预测性干预：

{\color{red}\textbf{[临界慢化的物理图像]:} 想象一个碗底滚动的小球。远离临界点时碗很陡，球受到扰动后很快回到底部（快速恢复）。但在临界点，碗变得极其平坦，几乎成了平面，小球滚动极其缓慢，仿佛时间被冻结了。这就是``临界慢化''——系统对扰动的响应变得极其缓慢，成为相变即将发生的强烈信号。}

\textbf{1. 自关联时间尺度。}特征弛豫时间按$\tau_{\text{AC}} \sim |T - T_c|^{-\nu z}$发散，其中$z$是动力学临界指数。预警阈值：$\tau_{\text{AC}}/\tau_{\text{baseline}} > 5$。

{\color{red}\textbf{[量级估计]:} 假设基线弛豫时间$\tau_{\text{baseline}}=1$天（正常情况下团队一天内响应变化）。当$\tau_{\text{AC}}>5$天时发出警报——意味着系统需要一周以上才能从扰动中恢复，这是协调崩溃的强烈前兆！指数$\nu z$通常在1.5-2之间，导致临界点附近弛豫时间爆炸性增长。}

\textbf{2. 方差放大。}涨落通过$\text{Var}[\Phi_\ell] \sim |T - T_c|^{-\gamma}$增长，因为系统变得更加易感。预警阈值：$\text{Var}[\Phi_\ell]/\text{Var}_{\text{baseline}} > 3$。

{\color{red}\textbf{[涨落放大的原因]:} 在临界点，系统对微小扰动极其敏感——磁化率$\chi\sim |T-T_c|^{-\gamma}$发散。方差与磁化率成正比（涨落-耗散定理），因此也发散。物理上：平时小的意见分歧在临界点被放大成大的波动，团队内部``躁动不安''，这是失序的前兆。当方差超过正常值3倍时，危险信号！}

\textbf{3. 传递熵滞后。}信息传播延迟按$\tau^* \sim |T - T_c|^{-\nu z}$标度。预警阈值：$\tau^* > 2\tau_{\text{actuation}}$。

{\color{red}\textbf{[信息流堵塞]:} 传递熵$TE$测量从层级$\ell$到$\ell+1$的因果信息流。临界慢化导致信息传播像``堵车''——上级的指令需要很长时间才能传到下级并产生效果。当延迟超过实际执行时间$\tau_{\text{actuation}}$的两倍时，意味着``决策比执行还慢''，协调失效！}

\textbf{4. Sobol敏感性爆炸。}基于方差的敏感性指数按$S_i \sim |T - T_c|^\gamma$发散。预警阈值：$\max_i S_i > 0.7$。

{\color{red}\textbf{[敏感性指数的解释]:} Sobol指数$S_i$测量参数$i$对输出方差的贡献比例。$S_i=0.7$意味着单个参数解释了70\%的输出方差——系统变得极度依赖某个因素，失去鲁棒性。在临界点，所有Sobol指数可能同时发散，系统对每个输入都极端敏感，完全不可预测。}

我们将这些整合为一个复合早期预警指数：
\begin{equation}
    \mathcal{W}_{\text{EWS}} = w_1 \log(\tau_{\text{AC}}) + w_2 \text{FDV}_{\text{avg}} + w_3 \frac{\diff}{\diff t}\langle D_{\text{KL}}\rangle + w_4 \Delta\text{TE}^{\text{reversal}},
    \label{eq:early-warning}
\end{equation}
其中FDV测量涨落-耗散违背，$\Delta\text{TE}^{\text{reversal}}$检测信息流方向反转。警报等级在$\mathcal{W}_{\text{EWS}} > 3\sigma$（警告）和$\mathcal{W}_{\text{EWS}} > 5\sigma$（危急）时触发，使得能够在性能下降之前进行主动的治理调整或温度修改。

{\color{red}\textbf{[复合指标的威力]:} 单一指标可能误报（例如偶然的方差增大），但四个独立物理量同时异常的概率极低。这就像医生综合体温、血压、心率做诊断。权重$w_i$需要根据历史数据校准。$3\sigma$和$5\sigma$对应99.7\%和99.9999\%置信度——统计上极其显著的偏离！}

{\color{red}\textbf{[涨落-耗散违背FDV的深意]:} 平衡态满足Einstein关系$D=\mu k_BT$（扩散系数=迁移率×温度）——这是涨落-耗散定理的体现。非平衡时这个关系被破坏，FDV测量破坏程度。FDV增大意味着系统被外部驱动远离平衡，``躁动''程度超过温度预期，这是协调失控的信号。}

{\color{red}\textbf{[传递熵反转的含义]:} 正常情况下$TE_{\ell\to\ell+1}>TE_{\ell+1\to\ell}$（信息自上而下流动）。如果这个方向反转（$\Delta\text{TE}^{\text{reversal}}<0$），意味着下级开始``指挥''上级——层级结构崩溃！这是组织失序的明确标志。}

\section{协调机制}
我们提出四个设计杠杆，它们在各种场景中持续改善性能，基于多智能体学习理论和信息论分析。

\subsection{带安全约束的共识}
分布式协调使用一个随机矩阵$C \in \mathbb{R}^{n \times n}$，编码影响权重$c_{ij} \geq 0$，行和等于一。收敛速度由谱半径$\rho(C)$刻画。

{\color{red}\textbf{[随机矩阵的意义]:} 行和等于1意味着$C$是``概率转移矩阵''——$c_{ij}$表示智能体$i$受智能体$j$影响的权重。每个智能体将所有邻居的意见加权平均：$x_i^{(t+1)}=\sum_j c_{ij}x_j^{(t)}$。这就像``民主投票''，但每个人的票权不同。谱半径$\rho(C)$控制收敛速度——越小越快。}

\begin{proposition}[安全共识]
如果$C$是双随机的且$\rho(C - (1/n)\mathbf{1}\mathbf{1}^\top) < 1$，则更新$x_{t+1} = \Pi_S(Cx_t)$在安全集$S$凸且闭时收敛到$S$内的共识。
\end{proposition}

{\color{red}\textbf{[双随机的深意]:} ``双随机''意味着不仅行和为1（概率），列和也为1（对称影响）。矩阵$(1/n)\mathbf{1}\mathbf{1}^\top$是``完全平均''——所有人权重相等。$C$减去这一项后谱半径<1意味着$C$比完全平均``更收敛''。投影$\Pi_S$确保每次迭代都保持在安全集内——即使迭代中途违反约束，也会被``拉回''安全区。}

这种基于投影的方法确保在整个协调过程中治理约束保持满足，结合了效率与安全保证。

{\color{red}\textbf{[投影的几何图像]:} 想象智能体在高维空间中移动，安全集$S$是一个凸区域（例如多面体）。每次迭代，智能体先按$Cx_t$移动，如果跑出$S$，就投影到$S$的边界上最近的点。凸性保证投影唯一且可高效计算。这是``先尝试后修正''的策略——比``始终保持在内部''更灵活。}

\subsection{热力学治理的噪声注入}
噪声注入遵循朗之万动力学与福克-普朗克演化，通过涨落-耗散定理确保热力学一致性。智能体动力学服从
\begin{equation}
    \frac{\diff x_i}{\diff t} = -\mu \nabla U_\ell(x_i) + \sqrt{2\mu k_B T_\ell}\, \xi_i(t),
    \label{eq:langevin}
\end{equation}
其中$U_\ell$结合了价值函数和治理惩罚，$\mu$是迁移率，$\xi_i(t)$是白噪声。Einstein关系$D_\ell = \mu k_B T_\ell$连接扩散系数与温度。

{\color{red}\textbf{[朗之万方程的物理图像]:} 第一项$-\mu\nabla U_\ell$是``势能驱动''——粒子滚下山坡，$\mu$是``摩擦系数''的倒数（越大越容易移动）。第二项$\sqrt{2\mu k_BT_\ell}\xi_i(t)$是``热噪声踢动''——布朗运动，强度正比于$\sqrt{T}$。这两项的平衡使系统最终达到玻尔兹曼分布$\propto e^{-U_\ell/(k_BT_\ell)}$。这是统计物理中最基本的方程之一！}

{\color{red}\textbf{[Einstein关系的深意]:} $D=\mu k_BT$是涨落-耗散定理的最早形式（1905年Einstein推导）。它说：扩散（涨落，随机项强度）与耗散（摩擦，$1/\mu$）成反比——摩擦越大，热运动越被抑制。这不是偶然，而是热平衡的必然要求！如果违反，将出现永动机。}

{\color{red}\textbf{[为什么是$\sqrt{2\mu k_BT}$？]:} 这来自Ito随机微分方程的标准形式。白噪声$\xi_i(t)$满足$\langle\xi_i(t)\xi_j(t')\rangle=\delta_{ij}\delta(t-t')$，因此$\langle(\diff W)^2\rangle=\diff t$（维纳过程的性质）。要使稳态方差正比于$T$，需要噪声强度正比于$\sqrt{T}$。因子2来自Ito公式中的$(\diff W)^2=\diff t$项——这是随机微积分的核心！}

序参数方差演化为
\begin{equation}
    \frac{\diff \sigma_\ell^2}{\diff t} = -2\mu k_\ell \sigma_\ell^2 + 2\mu k_B T_\ell d,
    \label{eq:variance-dynamics}
\end{equation}
在$\sigma_{\text{eq}}^2 = k_B T_\ell d / k_\ell$处达到平衡。我们采用基于方差的自适应冷却：
\begin{equation}
    T_\ell(t+1) = \begin{cases}
        \alpha T_\ell(t) & \text{如果 } \rho(t) \in [0.9, 1.1] \text{ （已平衡）} \\
        T_\ell(t) & \text{否则（仍在探索）}
    \end{cases}
    \label{eq:adaptive-cooling}
\end{equation}
其中$\rho(t) = \sigma_\ell^2(t)/\sigma_{\text{eq}}^2(T_\ell)$测量弛豫进展。

{\color{red}\textbf{[方差动力学的解释]:} 第一项$-2\mu k_\ell\sigma_\ell^2$是``势能约束''——弹性力将方差拉回零（$k_\ell$是``势能曲率''）。第二项$2\mu k_BT_\ell d$是``热噪声注入''——不断增大方差。平衡时两者相等，得$\sigma_{\text{eq}}^2=k_BT_\ell d/k_\ell$——这就是能量均分定理！$d$是维度，每个自由度贡献$k_BT/2$的能量方差。}

{\color{red}\textbf{[自适应冷却的智慧]:} 传统模拟退火盲目降温，可能在系统还未平衡时就降温（``冻结''在亚优解）。这里监测$\rho(t)$——实际方差与理论平衡方差的比值。只有当$\rho\approx 1$（系统已平衡）时才降温。这是``按需冷却''，比固定时间表智能得多。$\alpha<1$是冷却速率（通常0.9-0.99）。}

体制切换遵循Kramers逃逸速率$k_{A \to B} = (\omega_A \omega_B)/(2\pi\xi) \exp(-\Delta U_\ell/(k_B T_\ell))$，平均驻留时间$\tau_A \sim \exp(\Delta U_\ell/(k_B T_\ell))$。温度初始化使用$T_\ell(0) = \Delta U_\ell/(k_B \ln H)$，其中$H$是规划视野。层级相关分层匹配时间尺度：$T_\ell/T_{\ell+1} = \tau_{\ell+1}/\tau_\ell$，在速度更快的低层保持更高温度。

{\color{red}\textbf{[Kramers速率的物理图像]:} 想象粒子困在一个势阱$A$中，需要翻越能垒$\Delta U_\ell$才能到达另一个阱$B$。指数因子$e^{-\Delta U_\ell/(k_BT_\ell)}$是``玻尔兹曼因子''——能垒越高或温度越低，逃逸越难。前因子$(\omega_A\omega_B)/(2\pi\xi)$涉及势阱频率和阻尼——这是``尝试频率''。整体：逃逸速率=尝试频率×成功概率。}

{\color{red}\textbf{[温度初始化的巧思]:} $T_\ell(0)=\Delta U_\ell/(k_B\ln H)$使得初始逃逸时间$\tau_A\sim e^{\Delta U/(k_BT)}\sim H$——与规划视野匹配！这确保系统在规划期内能够探索主要的势阱。如果$T$太低，$\tau_A\gg H$，系统被困住；如果$T$太高，过度探索浪费时间。这是``温度-时间匹配原则''。}

{\color{red}\textbf{[层级温度分层的原因]:} 低层智能体反应快（$\tau_\ell$小），需要更多探索（高$T_\ell$）；高层决策慢（$\tau_{\ell+1}$大），需要更少噪声（低$T_{\ell+1}$）。温度比$T_\ell/T_{\ell+1}=\tau_{\ell+1}/\tau_\ell$确保每一层的有效探索时间尺度相匹配——这是``时间尺度分离''的热力学实现，使层级协调自然涌现。}

\subsection{层级赌博机学习}
工具和选项选择遵循上下文赌博机框架，具有线性奖励模型$\mathbb{E}[r_t \mid c_t, a_t] = c_t^\top \theta_{a_t}$。在具有延迟$d_\ell$的层级反馈下，LinUCB达到遗憾界
\begin{equation}
    R_T = O\bigl(d\sqrt{T \log(1 + T/\lambda)} + d_\ell\bigr),
\end{equation}
其中$d$是上下文维度。这量化了层级协调的学习效率代价。

{\color{red}\textbf{[遗憾界的解释]:} ``遗憾''$R_T$是累计奖励与最优策略的差距——学习的代价。第一项$d\sqrt{T\log T}$是标准LinUCB的遗憾（与上下文维度$d$和时间步$T$有关）——这是``探索-利用权衡''的固有代价。第二项$d_\ell$是``层级延迟惩罚''——反馈延迟$d_\ell$步会增加额外遗憾。物理意义：信息延迟越大，学习越慢。}

{\color{red}\textbf{[LinUCB的原理]:} ``UCB''是``上置信界''——对每个选项估计奖励$\hat{\theta}_a^\top c_t$加上置信区间$\alpha\sqrt{c_t^\top A_a^{-1}c_t}$（$A_a$是协方差矩阵）。选择UCB最大的选项——这是``乐观面对不确定性''原则。未充分探索的选项有大的置信区间，会被优先选择。这巧妙平衡了探索与利用！}

\subsection{信息流与热力学耦合}
传递熵$TE_{\ell \rightarrow \ell+1}$测量层级之间的方向因果影响\cite{hoel2013}。一个基本界将信息流与热力学代价连接：
\begin{proposition}[信息-热力学对偶性]
传递熵被驱动熵产生上界：
\begin{equation}
    TE_{\ell \rightarrow \ell+1} \leq \sigma_{\ell+1}^{\text{driven}},
    \label{eq:te-entropy-bound}
\end{equation}
其中$\sigma_{\ell+1}^{\text{driven}} = k_B \langle J \cdot \ln(\pi w / \pi' w') \rangle$量化了协调导致的不可逆耗散。
\end{proposition}

{\color{red}\textbf{[信息-热力学对偶的深刻性]:} 这是非平衡统计物理最深刻的洞察之一！信息不是免费的——传递信息需要耗散能量（熵产生）。$TE$测量``有用信息流''（从$\ell$到$\ell+1$的因果影响），$\sigma^{\text{driven}}$测量``为此付出的热力学代价''。不等式说：信息流不能超过熵产生——这是``信息处理的第二定律''！}

{\color{red}\textbf{[熵产生公式的解释]:} $\sigma^{\text{driven}}=k_B\langle J\cdot\ln(\pi w/\pi'w')\rangle$中，$J$是概率流（轨迹概率密度），$\pi w$是前向路径权重，$\pi'w'$是时间反演路径权重。比值$\pi w/\pi'w'$测量``不可逆程度''——完全可逆时等于1，$\ln=0$，熵产生为零。期望$\langle\cdot\rangle$对所有可能轨迹求平均。这来自Hatano-Sasa公式（非平衡统计物理的基石）。}

这个界意味着低传递熵配合高熵产生表示低效协调——能量被耗散了但没有有效传递信息。相反，高$TE$配合低$\sigma$表示接近可逆的协调，其中监督指令与自然动力学对齐。

{\color{red}\textbf{[效率的两种极端]:} 理想协调：高$TE$（大量信息传递）+ 低$\sigma$（小能量代价）→ 效率$\eta=TE/\sigma$接近1。糟糕协调：低$TE$（信息传不动）+ 高$\sigma$（拼命耗能）→ 效率接近0，像``空转的引擎''。中间情况：$TE\approx\sigma$（达到热力学极限）——这是``完美热机''的类比，卡诺效率！}

聚合效率$\eta_{\ell \rightarrow \ell+1} = I(S_\ell; S_{\ell+1})/H(S_\ell)$量化了向上聚合过程中的信息保存，对于单射映射达到$\eta = 1$。我们监测KL散度级联$D_{\text{total}} = \sum_\ell \alpha_\ell D_{\text{KL}}(p_\ell \| \pi_\ell^*)$与目标分布$\pi_\ell^*$的偏离，传播不等式$D_{\text{KL}}(p_{\ell+1} \| \pi_{\ell+1}^*) \leq C_\ell D_{\text{KL}}(p_\ell \| \pi_\ell^*) + \epsilon_{\text{agg}}$建立了定量协调目标。

{\color{red}\textbf{[聚合效率的信息论解释]:} $I(S_\ell;S_{\ell+1})$是互信息——下层状态$S_\ell$与上层状态$S_{\ell+1}$的共享信息。$H(S_\ell)$是下层的总熵（最大可能信息）。比值$\eta=I/H$测量``信息压缩效率''——理想情况下$\eta=1$（无信息损失，像无损压缩）；糟糕情况$\eta\to 0$（上层对下层一无所知）。}

{\color{red}\textbf{[KL散度级联的物理意义]:} 每一层都有目标分布$\pi_\ell^*$（例如最优策略），实际分布$p_\ell$与之有偏差$D_{\text{KL}}(p_\ell\|\pi_\ell^*)$。不等式$D_{\text{KL}}(p_{\ell+1}\|\pi_{\ell+1}^*)\leq C_\ell D_{\text{KL}}(p_\ell\|\pi_\ell^*)+\epsilon_{\text{agg}}$说：下层的错误会以因子$C_\ell$放大传播到上层，再加上聚合本身的误差$\epsilon_{\text{agg}}$。如果$C_\ell>1$，误差雪崩！如果$C_\ell<1$，层级结构起到``误差抑制''作用——这是好的层级设计的标志。}

$TE_{\ell \rightarrow \ell+1}$的下降伴随约束违背上升或$D_{\text{KL}}$增加，表明摘要未能传达可操作状态，促使模式改进或聚合算子重新设计。

{\color{red}\textbf{[失效的诊断逻辑]:} 如果观察到：(1) $TE_{\ell\to\ell+1}$下降（信息流堵塞），(2) 约束违背增加（行为失控），(3) $D_{\text{KL}}$增大（偏离目标），这三个信号同时出现意味着``聚合机制失效''——上层收到的摘要$S_{\ell+1}$无法反映下层真实状态$S_\ell$。解决方案：重新设计聚合算子（例如用更丰富的特征）或改进通信协议（增加带宽）。这是``信息瓶颈''的实时诊断！}
